iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 15
0
AI & Data

AWS 數據處理與分析實戰系列 第 15

Day 15 Glue ETL Job 教學 - Part 2

  • 分享至 

  • xImage
  •  

完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分

  1. 首先創建一個 Glue Job

https://ithelp.ithome.com.tw/upload/images/20200929/20129236l1XuUpw51r.png

  1. 第一個設定頁面是 Job 的基本設定,跟運算有關的都在這邊進行設定
    • IAM role:這邊的 Role 使用 Day 6 所創建的 Role(ITGlue)
    • Type:Type 的部分先選擇 Spark
    • Glue version:選擇最新的 Spark 2.4, Python 3(Glue version 2.0)
    • Monitoring options:這邊建議 Job metrics 與 Continuous logging 都打勾啟用,可以讓我們在遇到運算失敗時有資訊可以 Troubleshooting

https://ithelp.ithome.com.tw/upload/images/20200929/20129236XpK2Tpz0jL.png

  1. 再當前頁面繼續往下可以看到 Security configuration, script libraries, and job parameters (optional) 的選單,這邊可以設定是否加密、Import 而外所需的 Python library,以及設定要使用的運算資源大小
    • Worker Type:此參數可以設定要使用的運算類型
      • Standard:此執行類型可以應付單純的資料轉移、資料過濾、欄位拆分或合併
      • G.1X:如果需要進行 Join、Group、對資料進行計算時,選擇此類型會比較適合,因為在執行這些運算時會使用較多的記憶體
      • G.2X:進行更複雜的 ETL 計算工作時可能會需要更多的記憶體,這時就可以選擇此類型的運算資源
    • Number of workers:可以把這個參數想成有多少台 VM 進行運算,每個VM 會根據所選擇的 Worker Type 會有不同的 CPU、Memory
      • Standard 的 VM 有 4 Core 16G Memory,但每台 VM 會執行兩個 Task
      • G.1X 的 VM 有 4 Core 16G RAM,每台 VM 只會執行一個 Task,所以 Task 可以有完整的 16G Memory 可以用
      • G.2X 的 VM 有 8 Core 32G RAM,每台 VM 只會執行一個 Task

https://ithelp.ithome.com.tw/upload/images/20200929/20129236h8utg04Qll.png

其他設定可以維持在默認的狀態下即可


上一篇
Day 14 Glue ETL Job 教學 - Part 1
下一篇
Day 16 Glue ETL Job 教學 - Part 3
系列文
AWS 數據處理與分析實戰30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言